決策樹:隨機森林的基礎是多個決策樹的集成。決策樹是一種基於特徵的分類器,它通過一系列的問題來對數據進行分類。
隨機性:隨機森林在建立每個決策樹時引入了隨機性,這包括隨機地選擇特徵進行分割和隨機選擇訓練數據的子集。
集成:隨機森林通過合併多個決策樹的預測來進行最終的預測。這種集成策略可以提高模型的穩定性和性能。
# 1. 導入所需的庫和數據集
from sklearn.datasets import load_breast_cancer
from sklearn.ensemble import RandomForestClassifier
from sklearn.model_selection import train_test_split
from sklearn.metrics import accuracy_score, classification_report
# 2. 載入數據
data = load_breast_cancer()
X = data.data
y = data.target
# 3. 將數據集劃分為訓練集和測試集
X_train, X_test, y_train, y_test = train_test_split(X, y, test_size=0.2, random_state=42)
# 4. 初始化隨機森林模型並訓練
rf_model = RandomForestClassifier(n_estimators=100, random_state=42)
rf_model.fit(X_train, y_train)
# 5. 用測試集評估模型性能
y_pred = rf_model.predict(X_test)
accuracy = accuracy_score(y_test, y_pred)
report = classification_report(y_test, y_pred)
# 6. 打印結果
print(f'準確度:{accuracy}')
print(f'分類報告:\n{report}')